319 research outputs found

    Die thematische Erschließung von Sprachkorpora

    Get PDF
    Ziel des Teilprojekts ist die thematische Erschließung der Korpora, um sowohl themenspezifische virtuelle Subkorpora zusammenstellen zu können als auch aufgrund der Analyse sachgebietsbezogener Häufigkeitsverteilungen z.B. Lesarten disambiguieren zu können. Ausgangspunkt ist die Erstellung einer Taxonomie von Sachgebietsthemen. Dies erfolgt in einem semiautomatischen Verfahren, welches die Anwendung von Textmining (Dokumentclustering) und die manuelle Zuordnung von Clustern in eine externen Ontologie beinhaltet. Es wird argumentiert, dass die so gewonnene Taxonomie sowohl intuitiver als auch objektiver ist als bestehende, rein manuelle Ansätze. Sie eignet sich zudem gleichermaßen für manuelle als auch für maschinelle Klassifikation. Für letzteres wird der Naive Bayes'sche Textklassifikator motiviert und für ein klassifiziertes Korpus von knapp zwei Milliarden Wörtern evaluiert

    An Explicit non-Poissonian Pair Correlation Function

    Full text link
    A generic uniformly distributed random sequence on the unit interval has Poissonian pair correlations. At the same time, there are only very few explicitly known examples of sequences with this property. Moreover, many types of deterministic sequences, which are important in other contexts of equidistribution theory, have been proven to fail having the Poissonian pair correlation property. In all known examples for the non-Poissonian case, rather sophisticated arguments were used to derive information on the limiting pair correlation function. In this paper, we derive therefore the first elementary such example, namely for the sequence xn:={log(2n1)log(2)}x_n := \left\{ \frac{\log(2n-1)}{\log(2)} \right\}, which is also a low-dispersion sequence. The proof only heavily relies on a full understanding of the gap structure of (xn)nN(x_n)_{n \in \mathbb{N}}. Furthermore, we discuss differences to the weak pair correlation function.Comment: Further relevant references adde
    corecore